Determinación del género de autores de textos cortos a través de n-gramas

نویسندگان

  • Francisco Antonio Castillo Velásquez
  • María Del Consuelo Patricia Torres Falcón
  • Ely Karina Anaya Rivera
  • Iván Peredo Valderrama
  • Jonny Paul Zavala de Paz
چکیده

Nowadays, the possibilities for communicating or expressing through an electronic way are very wide: e-mail, social networks, chats and other ways are used by the majority of computer and mobile device users. One of the problemas that is presented in this communication way is excess, such as plagiarism, identitiy falsification, blackmailing, etc. Text authorship attribution (TAA) is in charge of answering authoring issues by providing previous examples from said author (training set). A useful process within TAA is sex or gender identification (male, female), which has been studied by many authors for its use in English mostly. The present work proposes a computational model 57 Research in Computing Science 115 (2016) pp. 57–66; rec. 2016-04-22; acc. 2016-05-18 based on lexical characteristics (n-grams) for gender identification in short texts in Spanish. Tests were carried out with a corpus from social network and blog text messages, producing promising results.

برای دانلود رایگان متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Herramienta de apoyo en la detección de reutilización de código fuente

Resumen. El acto de tomar parcial o totalmente contenidos generados por otras personas, y presentarlos como propios, sin dar el crédito correspondiente a los autores, es una forma indebida de reutilización de contenidos, considerada como plagio. Desafortunamente, en la actualidad, dada la amplia disponibilidad de contenidos a través de Internet, esta práctica se ha incrementado. La gran mayoŕıa...

متن کامل

Clustering Iterativo de Textos Cortos con Representaciones basadas en Conceptos

Resumen La tendencia actual a trabajar con documentos cortos (blogs, mensajes de textos, y otros), ha generado un interés creciente en las técnicas de procesamiento automáticas de documentos con estas caracteŕısticas. En este contexto, el “clustering” (agrupamiento) de textos cortos es un área muy importante de investigación, que puede jugar un rol fundamental en organizar estos grandes volúmen...

متن کامل

Characterization of Legal Psychology through psychology journals included in Criminology & Penology and Law categories of Web of Science

Título: Caracterización de la Psicología Jurídica a través de las revistas de psicología incluidas en las categorías Criminology & Penology y Law de la Web of Science. Resumen: El objetivo del presente trabajo es conocer los aspectos más relevantes que caracterizan a la Psicología Jurídica contemporánea a través del estudio de las revistas de la WoS en los años 2009 y 2014 relacionadas con esta...

متن کامل

Textos subjetivos y objetivos: un estudio sobre reconocimiento de subjetividad en corpus

Resumen. En este art́ıculo se describe un estudio exploratorio en el que se analiza cómo la subjetividad es expresada a través de elementos léxicos (subjetivemas) en un corpus de art́ıculos period́ısticos en español. En particular, dos tipos de textos constituyen el corpus: la nota informativa (texto expositivo) y la columna de opinión (texto argumentativo). El objetivo es identificar elementos qu...

متن کامل

STILUS: Sistema de revisión lingüistica de textos en castellano

STILUS es el producto de tecnología lingüística de DAEDALUS S.A. para la revisión ortográfica, gramatical y de estilo de gran calidad de textos en castellano. Con STILUS se puede revisar cualquier texto, ya se trate de un documento de cualquier procesador de textos o de una página web, y obtener un informe detallado y preciso con los errores ortográficos, gramaticales y de estilo detectados. El...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

عنوان ژورنال:
  • Research in Computing Science

دوره 115  شماره 

صفحات  -

تاریخ انتشار 2016